keywords:"zpětnovazební učení" - Výsledky hledání - Digitální repozitář

host :: přihlásit Digitální repozitář
		Hledej		Nový záznam		Nápověda		O repozitáři

Hlavní stránka > Výsledky hledání: keywords:"zpětnovazební učení"

Hledej:

Tipy pro vyhledávaní :: Rozšířené hledání

Hledej ve sbírkách:

Seřadit podle:	Zobrazit výsledky:	Výstupní formát:

	Hraní her pomocí neuronových sítí Buchal, Petr ; Kolář, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Cílem této práce je naučit neuronovou síť pohybu v prostředích s klasickou kontrolou řízení, hraní tahové hry 2048 a několika Atari her. Jedná se o oblast zpětnovazebního učení. Jako zpětnovazební algoritmus využívající neuronové sítě jsem použil Hluboké Q-učení. Ten jsem pro zvýšení efektivity učení obohatil o několik vylepšení. Mezi vylepšení patří přidání cílové sítě, DDQN, duální architektura neuronové sítě a prioritní vzpomínková paměť. Experimenty s klasickou kontrolou řízení zjistily, že nejvíce zvedá efektivitu učení přidání cílové sítě. V prostředích her dosáhlo Hluboké Q-učení několikanásobně lepších výsledků než náhodný hráč. Výsledky a jejich analýza mohou být využity ke vhledu do problematiky zpětnovazebních algoritmů využívajících neuronové sítě a zdokonalení použitých postupů. Úplný záznam
	Posilované učení pro 3D hry Beránek, Michal ; Herout, Adam (oponent) ; Hradiš, Michal (vedoucí práce) Práce se zabývá učením neuronové sítě na jednoduchých úlohách v prostředí 3D střílečky Doom, zprostředkovaném výzkumnou platformou ViZDoom. Hlavním cílem je vytvoření agenta, který se učí na několika úlohách zároveň. Použitým algoritmem posilovaného učení je Rainbow, který kombinuje několik vylepšení algoritmu DQN. Pro učení na více úlohách jsem navrhnul a otestoval dvě různé architektury sítě. Jedna z nich byla úspěšná a po relativně krátké době trénování dokázal agent získat téměř 50 % z maximální možné odměny. Klíčovým prvkem úspěchu je Embedding vrstva pro parametrický popis prostředí jednotlivých úloh. Hlavním zjištěním je, že Rainbow je schopen učit se v 3D prostředí a s pomocí Embedding vrstvy i na více úlohách zároveň. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) V této práci se věnuji problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Představuji zde hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popisuji teorii neuronových sítí, imitačního a zpětnovazebního učení. Dále rozebírám nástroje a metody vhodné pro zpracování systému řízení. V rámci práce jsem vytvořil dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů Dataset Aggregation a Deep Deterministic Policy Gradient. Vytvořené modely jsem otestoval v prostředí simulátoru TORCS a porovnal s dostupnými zdroji. Úplný záznam
	Využití Robotického operačního systému (ROS) pro řízení kolaborativního robota UR3 Juříček, Martin ; Matoušek, Radomil (oponent) ; Parák, Roman (vedoucí práce) Cílem bakalářské práce je vytvoření řídícího programu, jeho následné otestování a ověření funkčnosti pro kolaborativního robota UR3 od firmy Universal Robots. Řídící program je napsán v jazyce python a integruje možnosti řízení skrz Robotický operační systém, kdy lze dosahovat definovaného bodu pomocí předem simulovaných trajektorií algoritmů Q-learning, SARSA, Deep Q-learning, Deep SARSA, a nebo za pomocí pouze frameworku MoveIT. V práci je pojednáno průřezem o tématech kolaborativní robotiky, Robotického operačního systému, simulačního prostředí Gazebo, zpětnovazebního a hluboké zpětnovazebního učení. Závěrem je popsán samotný návrh a implementace řídícího programu s dílčími částmi. Úplný záznam
	Zpětnovazební učení pro řešení herních algoritmů Daňhelová, Jana ; Uher, Václav (oponent) ; Kolařík, Martin (vedoucí práce) Bakalářská práce Zpětnovazební učení pro řešení herních algoritmů je rozdělena do dvou částí. V teoretické části jsou popsány a srovnávány základní metody zpětnovazebního učení, přičemž zvláštní pozornost je věnována metodám aktivního učení – Q-učení a hlubokému učení. Praktická část je zaměřena na aplikaci metody deep learning na hru Had. Výsledky jsou prezentovány ve formě programu napsaného v programovacím jazyku Python, který se skládá z herního prostředí vytvořeného v PyGame, modelu konvoluční neuronové sítě zkonstruovaného v knihovně Keras a herního agenta. Výstupem programu je několik typů datasetů ve formátu csv. Získaná data, obsahující hodnoty jednotlivých parametrů jako počet epoch, přesnost, ztráta nebo výše odměny, mohou být následně použita jako podklady pro další zpracování. Úplný záznam
	Navigace pomocí hlubokých konvolučních sítí Skácel, Dalibor ; Veľas, Martin (oponent) ; Hradiš, Michal (vedoucí práce) Tato práce se věnuje problematice navigace a autonomního řízení za použití konvolučních neuronových sítí. Jsou zde představeny hlavní přístupy využívající zpracování senzorických vstupů uváděné v odborné literatuře a popsána teorie neuronových sítí, imitačního a zpětnovazebního učení. Dále jsou zde popsány nástroje a metody vhodné pro zpracování systému řízení. Jsou vytvořeny dva typy modelů pro řízení vozidel v simulačním prostředí. Modely využívají učících algoritmů DAGGER a DDPG. Vytvořené modely jsou otestovány v prostředí simulátoru TORCS. Úplný záznam
	Robocode - zabezpečená platforma pro hodnocení studentských projektů Peňáz, Vladimír ; Ježek, Štěpán (oponent) ; Burget, Radim (vedoucí práce) Tato bakalářská práce se zaměřuje na návrh a implementaci bezpečné testovací platformy založené na hře Robocode, která slouží k hodnocení studentských projektů v rámci předmětu MSC-PDA. Projekt využívá principy strojového učení a řeší problém třídy složitosti EXPSPACE. Hodnocení kvality výsledků v této třídě složitosti je obtížné a aktuálně neexistuje vhodné prostředí pro tyto účely. Cílem práce je vytvořit bezpečné prostředí, které umožní studentům soutěžit na herním serveru s minimálním rizikem poškození učitelské výpočetní stanice a zajištěním práv superuživatele. Studenti budou své natrénované modely připojovat k hernímu serveru, odkud získají kompletní informace o dění na bitevním poli a podle nich vygenerují instrukce pro svůj tank. Tímto způsobem bude model disponovat stejnými informacemi o bitvě jako člověk hrající manuálně. Na základě konečného skóre bude možné vyhodnotit, který model dosáhl nejlepšího výsledku a označit ho jako nejlepší. Platforma je implementována v jazyce Java a pracuje s modely implementovanými v jazyce Python. Úplný záznam
	Using reinforcement learning to learn how to play text-based games Zelinka, Mikuláš ; Kadlec, Rudolf (vedoucí práce) Schopnost naučit se optimálnímu chování v prostředích, kde jsou stavy i akce vyjádřeny v přirozeném jazyce, by se dala aplikovat na řadu skutečných problémů, jako je optimalizace dialogových systémů. Pro tento učící problém jsou vhodnou doménou textové hry s větším počtem možných konců se zpětnou vazbou v podobně číselných ohodnocení. S její pomocí můžeme v tomto kontextu využít technik zpětnovazebního učení pro současné učení vhodné reprezentace textových dat a rozhodovacích pravidel. Představujeme model obecného agenta schopného hrát textové hry a zkoumáme jeho schopnost generalizace a přenosu získaných znalostí na nová prostředí. Rovněž demonstrujeme, že se agent dokáže naučit hrát více textových her najednou. Dále prezentujeme otevřenou knihovnu pyfiction, která sjednocuje přístup k různým textovým hrám a doufáme, že společně s agentem, který je její součástí, by v budoucnu mohla sloužit jako referenční rámec pro podobné úlohy. Úplný záznam
	Stock Trading Using a Deep Reinforcement Learning and Text Analysis Benk, Dominik ; Baruník, Jozef (vedoucí práce) ; Vácha, Lukáš (oponent) Práce se zaměřuje na využití nedokonalostí akciového trhu pomocí nejmod- ernějších metod učení a jejich aplikaci na algoritmické obchodování. Očekává se, že automatizovaná rozhodnutí budou schopna překonat profesionální ob- chodníky tím, že zohlední mnohem více informací, budou reagovat téměř okamžitě a nebudou ovlivněna emocemi. Jako alternativa k tradičnímu učení s takz- vaným učitelem, využívá navrhovaný model zpětnovazebního učení principu pokus-omyl, který je nezbytný pro učení chování všech organismů. V kontextu akcií to umožňuje zohlednit zahrnutou nejistotu, a tedy přesněji odhadnout dlouhodobé výnosy. Pro shromáždění co nejrelevantnějších informací k jed- notlivým obchodním rozhodnutím, staví modely kromě technických ukazatelů také na názoru investorů - finančním sentimentu. Ten je získáván ze dvou textových zdrojů, zpráv a sociálních médií, a hlavním cílem je porovnat jejich relativní přínos pro obchodování. Modely jsou aplikovány na 11 různých akcií a později spojeny do portfolia pro větší robustnost výsledků. Textová analýza se potvrdila jako důležitá při procesu učení, zejména v případě akcií s dobrým mediálním pokrytím. Ukazuje se, že Twitter poskytuje cennější informace ve srovnání se zprávami, ale jejich kombinace vykazuje ještě vyšší predikční po- tenciál. Nicméně i tak, navržené... Úplný záznam
	Acquisition of Costly Information in Data-Driven Decision Making Janásek, Lukáš ; Baruník, Jozef (vedoucí práce) ; Vácha, Lukáš (oponent) Tato práce formuluje a řeší problém ekonomického rozhodování o nákladné akvizici informace při rozhodování na základě dat. Práce předpokládá agenta predikujícího náhodnou proměnnou za použití několika vysvětlujících proměn- ných, jejichž akvizice je nákladná. Před samotným rozhodováním se agent učí vztah mezi proměnnými z minulých realizací proměnných. Během samot- ného rozhodování agent vybírá vysvětlující proměnné a na jejich základě tvoří predikci. Užitek agenta je tvořen přesností predikce a náklady vynaloženými na akvizici vysvětlujících proměnných. Pro účely řešení práce rozděluje rozhodování agenta na akvizici proměnných a predikci na základě nabytých proměnných. Pro predikci práce představuje novou metodu tréninku jednoho prediktivního modelu, který dokáže přijmout libovolnou kombinaci nabytých proměnných. Pro akvizici proměnných práce představuje dvě nové metody stojící na stro- jovém učení s učitelem: trénink modelů strojového učení, které odhadují očeká- vaný užitek z jednotlivých proměnných odzadu, a krátkozrakou akvizici proměnné na základě okamžitého nárůstu očekávaného užitku. Práce dále formuluje prob- lém jak Markovův rozhodovací proces, což umožňuje approximovat optimální akvizici pomocí hlubokého zpětnovazebního učení. Práce navrhuje novou for- mulaci odměn při tréninku jako... Úplný záznam

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.

Digitální repozitář :: :: :: ::
Powered by v1.1.2
Spravuje

Tato stránka je dostupná také v následujících jazycích:
Česky English